查看原文
其他

卷首语 | 郑锦全:语言大数据迷思

郑锦全 语言战略研究 2021-12-03

2020年第5期



本期嘉宾

郑锦全 

美国伊利诺大学荣退教授,台湾师范大学讲座教授。


卷首语


语言大数据迷思


文 | 郑锦全 


过去数十载,学界使用电脑处理语言资料,提炼出人类语言活动的规律。研究过程中大家面对浩瀚的原始资料,希望能建立更大的语料库。例如崔希亮、张宝林《全球汉语学习者语料库建设方案》一文 (《语言文字应用》,2011年第2期),提出建构全球汉语学习者中介语大语料库的设想。2012 年美国科技业关注大数据资源的流通与应用。中文计算机学界的响应是如何把大量资料以“词向量”计算法列出词语在中文文本中与临近词语出现的关系,例如 2018年腾讯人工智能实验室发文《开源大规模高质量中文词向量数据,800万中文词随你用》。这样的大数据能给语言学界提供什么样的新的研究领域并不明显。


我个人近年关注的问题是如何衡量古今汉语的异同,如果单以词语的有无来考察,是无法显示不同时期或体裁差异的,例如“之”,古今都用,但是古代用“之”的有些语境,现在白话文用“的”。所以古今 汉语比较,需要有断词的文本,才能探究词语的属性。近年我研究所用的语料包括台湾“中研院”典藏的 上古汉语文本,取自秦汉(公元3世纪以前)的传世文献,有断词和词类语法标记,一共111 000多个词;唐诗三百首(公元7世纪至公元10世纪),有断词,无词类标记,一共有 11 000多个词;宋词三百首(公元10世纪至公元13世纪),有断词,无词类标记,一共有 13 000多个词;近代汉语文本包括唐五代到清代的作品,例如《水浒传》、《红楼梦》等,一共有 2 865 000多个词;现代汉语语料包括台湾“中研院”1990年前后分两期建构的文本,有断词和词类标记,前后两期各收大约五百万个词;新闻体裁文本包括北京大学标记的《人民日报》1998 年 1 月份有断词的新闻稿,共约 100 万个词;台湾“中央通讯社”1991 年至 2002 年每天发布的新闻稿,共约 950 万个词,有断词标记。


我从这些语料里计算出词语使用的特色,区别特色的关键在于词语在语流中的使用次数,从出现最高的词语往下排列出来,以出现频次最高的 15 个词的累计频率百分比作为该文本的词汇动态属性。细节请见郑锦全《汉语词汇动态属性与变异》一文(《语言学论丛》,2017 年第 2 期)。通过词汇动态属性能清楚地区别所考查的古代、近代、现代、诗词和新闻稿的异同和近似值。其中,唐诗三百首(3.431)和宋词三百首(3.327)的属性接近(括号中的数字为词语属性数值,下同);北京大学标记的《人民日报》1998 年 1 月新闻稿(13.827)和台湾“中央社”发布的新闻稿(12.392),这两个语料库的新闻稿属性接近;现代汉语语料中的后五百万词(15.782)、现代汉语一千万词(16.705)和现代汉语前五百万词(17.712),三者之间的现代汉语属性接近;近代汉语(18.078)类似现代汉语;上古汉语(28.757)则离现代汉语较远。今后应该大量扩展这些语料成为大数据,希望能从中看到更多可以深入研究的理念。

往期 · 推荐

卷首语

游汝杰:我看当代汉语

田小琳:深入语言生活方有斩获

李宇明:重视突发公共事件中的语言应急问题

于漪:读书,才能成为有精神支柱的人

 语言跨界谈

姚锡娟:朗诵艺术中的想象

瞿弦和:朗诵艺术三要素

吴京安:情感是朗诵的根基

于同云:漫谈中华民族“说”的语言艺术

专题研究:语言景观

张天伟,尚国文:语言景观研究的拓展与创新 | 主持人语

杜克·戈特:西方语言景观研究学术简史

尚国文,周先武:非典型语言景观的类型、特征及研究视角

张天伟:语言景观研究的新路径、新方法与理论进展

刘慧:城中村语言景观与农民工身份认同研究——以广州石牌村为例

徐欣路:语言景观标记论——以北京798艺术区为例

期刊相关

《语言战略研究》2020年第5期目录及提要

会议通知 | “中国语言生活皮书”编纂十五周年暨第三届中国语言生活学术研讨会

约稿启事|“城乡语言变异研究”专栏(2021年第5期)

长按图片 关注我们

: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存